我们考虑从分布强化学习中学习一组概率分布的问题(RL),该学位与仅在经典RL中的期望相比,学习了整个返回分布。尽管它成功地获得了卓越的性能,但我们仍然对分布RL中的价值分布的工作方式有糟糕的了解。在这项研究中,我们通过在神经拟合z-材料〜(Neural FZI)框架中的其他价值分布信息的杠杆作用来分析分布RL的优化益处。首先,我们证明了分布RL的分布损失具有理想的平滑性特征,因此具有稳定的梯度,这与促进优化稳定性的趋势一致。此外,分布RL的加速效应是通过分解返回分布来揭示的。事实证明,如果合适的值分布近似值,则分布RL可以表现出色,该分布由每个特定分布RL算法中每个环境中梯度估计的方差衡量。严格的实验验证了分布RL的稳定优化行为,与经典RL相比,其加速效应有助于其加速作用。我们研究的发现阐明了分布RL算法中的价值分布如何有助于优化。
translated by 谷歌翻译
分布强化学习〜(RL)是一类最先进的算法,可估计总回报的整个分布,而不仅仅是其期望。分布RL的经验成功取决于回报分布的表示和分布差异的选择。在本文中,我们提出了一类新类\ textit {sindhorn Distributional rl〜(sindhorndrl)}算法,该算法学习了一组有限的统计数据,即确定性样本,从每个返回分布中,然后使用sinkhorn迭代来评估sindhorn迭代之间的距离当前和目标铃铛分布。 sindhorn的差异特征是瓦斯汀距离与最大平均差异〜(MMD)之间的插值。 Sindhorndrl通过利用基于最佳传输距离的几何形状和MMD的无偏梯度估计特性,从而找到了一个甜蜜点。最后,与最先进的算法相比,Sinkhorndrl的竞争性能在55场Atari游戏中得到了证明。
translated by 谷歌翻译
随着日常生活中的自然语言处理(NLP)的部署扩大,来自NLP模型的继承的社会偏见变得更加严重和有问题。以前的研究表明,在人生成的Corpora上培训的单词嵌入式具有强烈的性别偏见,可以在下游任务中产生鉴别结果。以前的脱叠方法主要侧重于建模偏差,并且仅隐含地考虑语义信息,同时完全忽略偏置和语义组件之间的复杂潜在的因果结构。为了解决这些问题,我们提出了一种新的方法,利用了因果推断框架来有效消除性别偏见。所提出的方法允许我们构建和分析促进性别信息流程的复杂因果机制,同时保留单词嵌入中的Oracle语义信息。我们的综合实验表明,该方法达到了最先进的性别脱叠任务。此外,我们的方法在字相似性评估和各种外在下游NLP任务中产生了更好的性能。
translated by 谷歌翻译
尽管概念化已经在语义和知识表示中进行了广泛研究,但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实:大多数知识库都包含世界的一般术语,例如树木和汽车,它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是,自然语言的复杂性允许使用时态,否定和语法改变语言的逻辑或重点,从而传达了完全不同的含义。在本文中,我们提出了标签,这是一个高质量的概念匹配的数据集,该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成,并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图,以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型,并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法,该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。
translated by 谷歌翻译
分布强化学习〜(RL)是一类最先进的算法,可估计总回报的全部分布,而不仅仅是其期望。尽管分销RL的表现出色,但对基于预期的RL的优势的理论理解仍然难以捉摸。在本文中,我们将分布RL的优越性归因于其正规化效果,无论其预期如何,其价值分布信息。首先,通过稳健统计数据中总误差模型的变体的杠杆作用,我们将值分布分解为其预期和其余分布部分。因此,与基于期望的RL相比,分布RL的额外好处主要解释为在神经拟合Z-材料框架中\ textit {风险敏感的熵正则化}的影响。同时,我们在最大熵RL中的分布RL的风险敏感熵正则和香草熵之间建立了一个桥梁,专门针对参与者 - 批评算法。它揭示了分布RL诱导校正后的奖励函数,从而促进了针对环境内在不确定性的风险敏感探索。最后,广泛的实验证实了分布RL的正则化作用和不同熵正则化的相互影响的作用。我们的研究铺平了一种更好地解释分布RL算法的功效,尤其是通过正则化的镜头的方法。
translated by 谷歌翻译
深度强化学习中的异常状态(RL)是超出RL政策范围的状态。这样的状态可能会导致RL系统的次优和不安全的决策,从而阻碍其在实际情况下的部署。在本文中,我们为深度RL算法提出了一个简单而有效的异常检测框架,该算法同时考虑了随机,对抗和分布外〜(OOD)状态异常值。特别是,我们在高斯假设下获得了每个动作类别的类别条件分布,并依靠这些分布来根据Mahalanobis距离〜(MD)和强大的Mahalanobis距离区分嵌入式和离群值。我们对Atari游戏进行了广泛的实验,以验证我们的检测策略的有效性。据我们所知,我们介绍了深入RL算法中统计和对抗性异常检测的第一项详细研究。这个简单的统一异常检测为在现实世界应用中部署安全的RL系统铺平了道路。
translated by 谷歌翻译
在实际情况下,代理观察的状态观察可能含有测量误差或对抗性噪音,误导代理人在训练时采取次优行动甚至崩溃。在本文中,我们研究了分布加固学习的培训稳健性〜(RL),一类最先进的方法,即估计整个分布,而不是仅期望的总回报。首先,我们验证了基于期望和分布的Bellman运营商在状态 - Noisy Markov决策过程〜(SN-MDP)中的收缩,该典型表格案例包含随机和对抗状态观察噪声。除了SN-MDP之外,我们将分析基于期望的RL中最小二乘损失的脆弱性,具有线性或非线性函数近似。相比之下,基于直方图密度估计理论地表征分布RL损耗的有界梯度规范。由此产生的稳定梯度,而分布RL的优化占其更好地训练稳健性,而不是国家观察噪声。最后,在游戏套件上进行了广泛的实验,在不同的状态观察噪声的不同强度下,在SN-MDP样设置中验证了基于期望和分布RL的收敛性。更重要的是,与SN-MDP之外的嘈杂设置中,与基于期望的对应物相比,分布RL与嘈杂的状态观察相比,分配RL不易受到噪声的噪声。
translated by 谷歌翻译
Consensus clustering aggregates partitions in order to find a better fit by reconciling clustering results from different sources/executions. In practice, there exist noise and outliers in clustering task, which, however, may significantly degrade the performance. To address this issue, we propose a novel algorithm -- robust consensus clustering that can find common ground truth among experts' opinions, which tends to be minimally affected by the bias caused by the outliers. In particular, we formalize the robust consensus clustering problem as a constraint optimization problem, and then derive an effective algorithm upon alternating direction method of multipliers (ADMM) with rigorous convergence guarantee. Our method outperforms the baselines on benchmarks. We apply the proposed method to the real-world advertising campaign segmentation and forecasting tasks using the proposed consensus clustering results based on the similarity computed via Kolmogorov-Smirnov Statistics. The accurate clustering result is helpful for building the advertiser profiles so as to perform the forecasting.
translated by 谷歌翻译
In computational advertising, a challenging problem is how to recommend the bid for advertisers to achieve the best return on investment (ROI) given budget constraint. This paper presents a bid recommendation scenario that discovers the concavity changes in click prediction curves. The recommended bid is derived based on the turning point from significant increase (i.e. concave downward) to slow increase (convex upward). Parametric learning based method is applied by solving the corresponding constraint optimization problem. Empirical studies on real-world advertising scenarios clearly demonstrate the performance gains for business metrics (including revenue increase, click increase and advertiser ROI increase).
translated by 谷歌翻译
In cost-per-click (CPC) or cost-per-impression (CPM) advertising campaigns, advertisers always run the risk of spending the budget without getting enough conversions. Moreover, the bidding on advertising inventory has few connections with propensity one that can reach to target cost-per-acquisition (tCPA) goals. To address this problem, this paper presents a bid optimization scenario to achieve the desired tCPA goals for advertisers. In particular, we build the optimization engine to make a decision by solving the rigorously formalized constrained optimization problem, which leverages the bid landscape model learned from rich historical auction data using non-parametric learning. The proposed model can naturally recommend the bid that meets the advertisers' expectations by making inference over advertisers' historical auction behaviors, which essentially deals with the data challenges commonly faced by bid landscape modeling: incomplete logs in auctions, and uncertainty due to the variation and fluctuations in advertising bidding behaviors. The bid optimization model outperforms the baseline methods on real-world campaigns, and has been applied into a wide range of scenarios for performance improvement and revenue liftup.
translated by 谷歌翻译